處理的訓練資料中有答案的資料和沒有答案的資料,半監督學習就是利用兩者的資料,來改善模型性能
依賴模型的預測能力
會先使用標記資料訓練一個基本模型
然後用模型對未標記資料進行預測
預測結果視為偽標籤( pseudo-labels )
僞標籤( Pseudo Label )
對未標記資料的臨時標籤或估計標籤
最後把有偽標籤的未標記資料加到訓練集並重複訓練
重複多次,每次都更新模型和偽標籤
直到滿意水平或達到設定的次數
是支持向量機( SVM )的一個變種
用未標記資料來擴展模型
傳統的 SVM 解決二元分類問題
而半監督 SVM 利用未標記資料的分佈
用在多類別分類和迴歸等任務
未標記資料視為支持向量機優化過程中的軟標籤
軟標籤( Soft Label )
將概率分佈或連續值分數作為標籤
而不是硬標籤(例如 0 或 1 的二元標籤)
最後根據未標記資料的置信度進行加權
置信度( Confidence )
對事件和情況的信心程度
是一類統計模型
假設未標記資料中存在潛在結構
並試著在潛在變數的空間中學習資料分布
模型根據不確定性選擇要請求標記的樣本
不確定性選擇(Uncertainty Sampling)
用於選擇哪些樣本應該被請求標記
最大程度改善模型性能
選擇那些可以最大程度地提高模型性能的樣本
可以最大地減少需要標記的樣本數量